文字轉語音工具

比較並試用幾個常見的文字轉語音(text-to-speech,TTS)的線上服務或單機開源工具。

目前有數量相當多的線上服務,都相當容易上手。但可以產生聽起來順耳的中文語音服務數量有限,隱私以及費用是主要的問題。

單機開源工具沒有隱私以及費用的問題,但技術門檻高,而且相當吃電腦硬體資源,一般的電腦要生成語音的速度大概都不會太快。可以產生聽起來順耳的單機開源工具也相當有限。

特性 線上服務 (Online Services) 單機開源工具 (Offline Open-source Tools)
優點 1. 易於使用: 無需安裝,透過網頁介面使用即可。 1. 完全免費: 軟體本身及使用上沒有費用(訓練成本除外)。
2. 高品質語音: 雲端供應商通常提供高自然度、多樣化的語音。 2. 數據隱私: 語音合成過程在本地進行,無需將數據上傳到雲端。
3. 無需本機硬體資源: 所有運算都在雲端進行,不佔用本機電腦資源。運算速度通常也比本機電腦快許多。 3. 客製化程度高: 程式碼開源,可以根據需求修改和優化。
4. 維護與更新: 服務商會定期更新和維護,無需自行管理。 4. 不需網路: 一旦安裝,即可離線使用。
5. 擴展性: 隨用隨付,可根據需求擴展使用量。
缺點 1. 收費: 通常按使用量(字數)計費,長期或大量使用成本較高。 1. 技術門檻高: 通常需要編寫程式碼、機器學習和語音處理等知識才能自在使用。
2. 數據隱私: 需要將文字內容上傳到雲端進行處理。 2. 需要本機硬體資源: 尤其是訓練模型時需要強大的CPU/GPU。
3. 需要連上網路: 需要穩定的網路連線才能使用。 3. 語音品質不一: 開源模型品質差異大,通常不如商業服務。
4. 客製化限制: 只能在服務商提供的選項內進行選擇,客製化彈性較低。 4. 維護與更新: 需要自行管理和更新,可能缺乏即時支援。
5. 部署複雜: 安裝和設定過程可能較為繁瑣。

線上TTS測試

我測試了五個服務讓它們唸一段中文文字。這些服務包含了雅婷、Ondoku、luvvoice、Elevenlab、TTSmaker。目前聽起來還是雅婷的中文聽起來最順耳,其次是Ondoku以及luvvoice。

[音檔](https://drive.google.com/drive/folders/1Gijte8TXEcCqLPYO0_n4yPCNOXN0U1BQ?usp=sharing)在此。

服務名稱 收費方式 是否可模仿聲音 備註
雅婷 字數計費(298/10萬字) 是(需透過 API) 需使用 API 上傳音檔訓練模型,每帳戶最多保留五個聲音模型。
Ondoku 按月計費 每月有字數上限
luvvoice 按月計費 每月有字數上限
Elevenlab 按月計費 每月有字數上限
TTSmaker 按月計費 每月有字數上限

單機TTS測試

研究如何部署中……(真的不簡單)。預計將先測試聯發創新基地釋出的BreezeVoice